华为FusionInsight大数据解决方案支持超大规模集群和统一管理
数据中心联盟于2017年12月25日至2017年12月29日委托中国信息通信研究院对华为技术有限公司的 FusionInsight HD平台进行了测试,本测试依据数据中心联盟《Hadoop 平台基础能力测试方法2.0》验证了该产品在5001节点上的功能、运维、多租户、可用性、安全性、兼容性、扩展性、易用性等能力。全部用例均通过,华为成为首家通过该测试的厂商。
大规模集群存在较多技术挑战,比如机房的容量限制和网络交换层级的“临界点”、集群管理能力限制、文件系统极限等,华为FusionInsight是怎么解决这些技术限制,实现超过5000节点的超大集群呢?
开源社区调度的周期同心跳结合在一起,当集群规模增大时,会遇到系统扩展性以及调度性能瓶颈。华为FusionInsight Superior Scheduler的调度器引入了专门的调度线程,把调度同心跳剥离开,调度器在接收到各个NodeManager上报的心跳信息后,将资源信息保存在内存中,使得调度器能够全局掌控集群的资源使用情况。Superior调度器采用了push调度模型,令调度更加精确、高效,大大提高了大集群下的资源使用率。另外,Superior调度器在NodeManager心跳间隔较大的情况下,调度性能依然优异,不牺牲调度性能,也能避免大集群环境下的“心跳风暴”。还有,Superior Scheduler调度流程采用了从作业到资源的正向匹配方法,这样每个调度的作业都有全局的资源视图,可以很大的提高调度的精度。相比开源调度器,Superior Scheduler在系统吞吐量、利用率、数据亲和性等方面都有很大提升。
开源社区YARN组件的心跳机制是NodeManager和ApplicationMaster定期向ResourceManager上报周期性心跳。这种心跳机制实现简单,能够应付大多数场景。但在某些特殊场景下存在一些问题,如在大规模集群(NodeManager大于1000节点)中,ResourceManager端由于负载过大无法及时处理周期性上报的心跳信息,导致心跳拥塞;而延长心跳周期又会导致调度性能下降,等待调度的任务长时间无法获取到集群资源,使得集群计算资源利用率低。通过引入动态心跳机制,ResourceManager可以根据当前负载决定下一心跳上报(Throttle Heartbeat),以此解决心跳拥塞的问题;同时NodeManager和ApplicationMaster可以在发生紧急事件时触发基于事件的心跳(Event Based Heartbeat),以解决集群资源利用率低的问题。
1、华为FusionInsight提供集群安装部署工具,支持模板安装,可实现大规模快速安装部署;
2、提供大集群的容错能力,所有维护操作支持可重入,安装部署支持按实例数容错,支持主机隔离(防止单点主机问题引起集群雪崩);
3、大集群硬件异构环境能力,支持实例组管理,可按不同硬件规格主机设置不同的配置;
4、集群规模弹性伸缩,集群可大可小,不同集群规模应用不同系统配置,合理利用系统资源;
5、集群快速修复能力,支持主机重装 、集群修复、IP修改;
6、大集群中海量监控数据的处理能力。
正因为上述关键技术,使华为FusionInsight大数据解决方案支持5000+超大规模集群,为客户提供更大规模的存储空间、更大范围数据共享、更高扩展性和可用性。
华为中国生态伙伴大会2018
3月22日
大数据 让数据“慧”说话 分论坛
青岛国际会展中心 HALL 4 - B1
与您相约,不见不散
以更多行动创造指数级生态价值丨华为中国生态伙伴大会2018将于青岛盛大召开